69精品人人人人,国产精品美女一区二区三区,人妻少妇精品久久,一本久久A久久免费精品不卡

聯(lián)系我們

咨詢熱線：

聯(lián)系QQ：

官方微信：

齊寧：搜索引擎知識(shí) 網(wǎng)頁查重技術(shù)

全網(wǎng)營銷

導(dǎo)讀：對(duì)于搜索引擎來說，重復(fù)的網(wǎng)頁內(nèi)容是非常有害的。重復(fù)網(wǎng)頁的存在意味著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會(huì)在索引庫里索引兩份相同的網(wǎng)

發(fā)表日期：2019-03-23

文章編輯：興田科技

瀏覽次數(shù)：13102

標(biāo)簽：

對(duì)于搜索引擎來說，重復(fù)的網(wǎng)頁內(nèi)容是非常有害的。重復(fù)網(wǎng)頁的存在意味著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會(huì)在索引庫里索引兩份相同的網(wǎng)頁。當(dāng)有人查詢時(shí)，在搜索結(jié)果中就會(huì)出現(xiàn)重復(fù)的網(wǎng)頁鏈接。所以無論是從搜索體驗(yàn)還是系統(tǒng)效率檢索質(zhì)量來說這些重負(fù)網(wǎng)頁都是有害處的。

網(wǎng)頁查重技術(shù)起源于復(fù)制檢測(cè)技術(shù)，即判斷一個(gè)文件內(nèi)容是否存在抄襲、復(fù)制另外一個(gè)或多個(gè)文件的技術(shù)。

1993年Arizona大學(xué)的Manber(Google現(xiàn)副總裁、工程師)推出了一個(gè)sif工具，尋找相似文件。1995年Stanford大學(xué)的Brin(Sergey Brin，Google創(chuàng)始人之一)和Garcia-Molina等人在“數(shù)字圖書觀”工程中首次提出文本復(fù)制檢測(cè)機(jī)制COpS(Copy protection System)系統(tǒng)與相應(yīng)算法[Sergey Brin et al 1995]。之后這種檢測(cè)重復(fù)技術(shù)被應(yīng)用到搜索引擎中，基本的核心技術(shù)既比較相似。

網(wǎng)頁和簡(jiǎn)單的文檔不同，網(wǎng)頁的特殊屬性具有內(nèi)容和格式等標(biāo)記，因此在內(nèi)容和格式上的相同相似構(gòu)成了4種網(wǎng)頁相似的類型。

1、兩個(gè)頁面內(nèi)容格式完全相同。

2、兩個(gè)頁面內(nèi)容相同，但格式不同。

3、兩個(gè)頁面部分內(nèi)容相同并且格式相同。

4、兩個(gè)頁面部分重要相同但格式不同。

實(shí)現(xiàn)方法：

網(wǎng)頁查重，首先將網(wǎng)頁整理成為一個(gè)具有標(biāo)題和正文的文檔，來方便查重。所以網(wǎng)頁查重又叫“文檔查重”?！拔臋n查重”一般被分為三個(gè)步驟，一、特征抽取。二、相似度計(jì)算和評(píng)價(jià)。三、消重。

1.特征抽取

我們?cè)谂袛嘞嗨莆锏臅r(shí)候，一般是才能用不變的特征進(jìn)行對(duì)比，文件查重第一步也是進(jìn)行特征抽取。也就是將文檔內(nèi)容分解，由若干組成文檔的特征集合表示，這一步是為了方面后面的特征比較計(jì)算相似度。

特征抽取有很多方法，我們這里主要說兩種比較經(jīng)典的算法，“I-Match算法”、“Shingle算法”。

“I-Match算法”是不依賴于完全的信息分析，而是使用數(shù)據(jù)集合的統(tǒng)計(jì)特征來抽取文檔的主要特征，將非主要特征拋棄。

“Shingle算法”通過抽取多個(gè)特征詞匯，比較兩個(gè)特征集合的相似程度實(shí)現(xiàn)文檔查重。

2.相似度計(jì)算和評(píng)價(jià)

特征抽取完畢后，就需要進(jìn)行特征對(duì)比，因網(wǎng)頁查重第二步就是相似度計(jì)算和評(píng)價(jià)。

I-Match算法的特征只有一個(gè)，當(dāng)輸入一篇文檔，根據(jù)詞匯的IDF值(逆文本頻率指數(shù)，Inverse document frequency縮寫為IDF)過濾出一些關(guān)鍵特征，即一篇文章中特別高和特別低頻的詞匯往往不能反應(yīng)這篇文章的本質(zhì)。因此通過文檔中去掉高頻和低頻詞匯，并且計(jì)算出這篇文檔的唯一的Hash值(Hash簡(jiǎn)單的說就是把數(shù)據(jù)值映射為地址。把數(shù)據(jù)值作為輸入，經(jīng)計(jì)算后即可得到地址值。)，那些Hash值相同的文檔就是重復(fù)的。

Shingle算法是抽取多個(gè)特征進(jìn)行比較，所以處理起來比較復(fù)雜一些，比較的方法是完全一致的Shingle個(gè)數(shù)。然后除以兩個(gè)文檔的Shingle總數(shù)減去一致的Shingle個(gè)數(shù)，這種方法計(jì)算出的數(shù)值為“Jaccard 系數(shù)”，它可以判斷集合的相似度。Jaccard 系數(shù)的計(jì)算方法集合的交集除以集合的并集。

3.消重

對(duì)于刪除重復(fù)內(nèi)容，搜索引擎考慮到眾多收錄因素，所以使用了最簡(jiǎn)單的最實(shí)用的方法。先被爬蟲抓取的頁面同時(shí)很大程度也保證了優(yōu)先保留原創(chuàng)網(wǎng)頁。

網(wǎng)頁查重工作是系統(tǒng)中不可缺少的，刪除了重復(fù)的頁面，所以搜索引擎的其他環(huán)節(jié)也會(huì)減少很多不必要的麻煩，節(jié)省了索引存儲(chǔ)空間、減少了查詢成本、提高了pageRank計(jì)算效率。方便了搜索引擎用戶。

本文首發(fā) 齊寧網(wǎng)絡(luò)營銷策劃 www.qi-ning.com 轉(zhuǎn)載請(qǐng)注明作者信息。謝謝！

齊寧 MSN: i@qining.org



上一篇：

暫無信息

上一篇：

解讀提高網(wǎng)站流量轉(zhuǎn)化率經(jīng)驗(yàn)（二）



相關(guān)推薦

更多新聞

11-13
2020

全網(wǎng)營銷 / 2020-11-13
果斷收藏：網(wǎng)站建設(shè)中的關(guān)鍵詞排名的后期工作！

　　關(guān)于關(guān)鍵詞排名，對(duì)于網(wǎng)站建設(shè)前期的一個(gè)規(guī)劃關(guān)系著一個(gè)網(wǎng)站建設(shè)得是否成功，網(wǎng)站建設(shè)前需明確建設(shè)網(wǎng)站的目的，確定網(wǎng)站的功能和規(guī)模，進(jìn)行必要的市場(chǎng)分析，只

View details

11-13
2020

全網(wǎng)營銷 / 2020-11-13
不得不知的關(guān)于搜索引擎優(yōu)化首頁標(biāo)題！

　　關(guān)于搜索引擎優(yōu)化，對(duì)于網(wǎng)站建設(shè)的首頁可以說它就相當(dāng)于人的臉面，因?yàn)槲覀兛匆粋€(gè)人的時(shí)候，首先看到的是對(duì)方的臉，相對(duì)的搜索引擎優(yōu)先的參考對(duì)象就是標(biāo)題了

View details

11-13
2020

全網(wǎng)營銷 / 2020-11-13
漲知識(shí)SEO優(yōu)化對(duì)企業(yè)的意義及重要性！

　　關(guān)于seo，首先獲得更多精準(zhǔn)客戶。有需求的用戶，基本都會(huì)在網(wǎng)上搜索關(guān)鍵詞，找到自己想要的內(nèi)容，企業(yè)網(wǎng)站做了SEO優(yōu)化，網(wǎng)站部署的關(guān)鍵詞，有了好的排名，那么就有

View details

11-13
2020

全網(wǎng)營銷 / 2020-11-13
【干貨分享】企業(yè)網(wǎng)站優(yōu)化應(yīng)該注意哪些問題？

　　關(guān)于網(wǎng)站優(yōu)化，大家可能都了解，創(chuàng)業(yè)的第一步就是找到客戶，那在以前創(chuàng)業(yè)的時(shí)候要想找到自己公司的目標(biāo)客戶都是使用傳統(tǒng)的銷售模式，要不就是朋友介紹這樣的

View details
